智能论文笔记

A category theory framework for Bayesian learning

Kotaro Kamiya , John Welliaveetil

分类：人工智能 | 机器学习

2021-11-29

由Spivak和Fong和Cruttwell等人的基础作品的启发，我们介绍了一个分类的框架来形式化贝叶斯推断和学习。在这里玩的两个关键想法是Cruttwell等人建造的贝叶斯反转和仿函数的概念。在这种情况下，我们发现贝叶斯学习是学习范例的最简单案例。然后，我们获得批量和顺序贝叶斯更新的分类配方，同时还验证了两个在特定示例中一致。

translated by 谷歌翻译

Generative Colorization of Structured Mobile Web Pages

Kotaro Kikuchi , Naoto Inoue , Mayu Otani , Edgar Simo-Serra , Kota Yamaguchi

分类：计算机视觉

2022-12-22

Color is a critical design factor for web pages, affecting important factors such as viewer emotions and the overall trust and satisfaction of a website. Effective coloring requires design knowledge and expertise, but if this process could be automated through data-driven modeling, efficient exploration and alternative workflows would be possible. However, this direction remains underexplored due to the lack of a formalization of the web page colorization problem, datasets, and evaluation protocols. In this work, we propose a new dataset consisting of e-commerce mobile web pages in a tractable format, which are created by simplifying the pages and extracting canonical color styles with a common web browser. The web page colorization problem is then formalized as a task of estimating plausible color styles for a given web page content with a given hierarchical structure of the elements. We present several Transformer-based methods that are adapted to this task by prepending structural message passing to capture hierarchical relationships between elements. Experimental results, including a quantitative evaluation designed for this task, demonstrate the advantages of our methods over statistical and image colorization methods. The code is available at https://github.com/CyberAgentAILab/webcolor.

translated by 谷歌翻译

BlindSpotNet: Seeing Where We Cannot See

Taichi Fukuda , Kotaro Hasegawa , Shinya Ishizaki , Shohei Nobuhara , Ko Nishino

分类：计算机视觉

2022-07-08

我们将2D盲点估计作为道路场景理解的关键视觉任务。通过自动检测从车辆有利位置阻塞的道路区域，我们可以主动提醒手动驾驶员或自动驾驶系统，以实现事故的潜在原因（例如，引起人们对孩子可能逃脱的道路区域的注意）。在完整3D中检测盲点将是具有挑战性的，因为即使汽车配备了LIDAR，3D推理也会非常昂贵且容易发生。相反，我们建议从单眼相机中学习估计2D中的盲点。我们通过两个步骤实现这一目标。我们首先引入了一种自动方法，用于通过利用单眼深度估计，语义细分和SLAM来生成``地面真相''盲点训练数据，以进行任意驾驶视频。关键的想法是在3D中推理，但要从2D图像定义为那些目前看不见但在不久的将来看到的道路区域。我们使用此自动离线盲点估计来构建一个大规模数据集，我们称之为道路盲点（RBS）数据集。接下来，我们介绍BlindSpotnet（BSN），这是一个简单的网络，该网络完全利用此数据集，以完全自动估算框架盲点概率图，以用于任意驾驶视频。广泛的实验结果证明了我们的RBS数据集的有效性和BSN的有效性。

translated by 谷歌翻译

Generating Repetitions with Appropriate Repeated Words

Toshiki Kawamoto , Hidetaka Kamigaito , Kotaro Funakoshi , Manabu Okumura

分类：自然语言处理

2022-07-03

重复是一种反应，可以在对话中重复上一位演讲者的话语中的单词。如语言研究所述，重复对于与他人建立信任至关重要。在这项工作中，我们专注于重复生成。据我们所知，这是解决重复产生的第一种神经方法。我们提出了加权标签平滑，一种平滑方法，用于明确学习在微调过程中重复哪些单词，以及一种重复评分方法，可以在解码过程中输出更合适的重复。我们进行了自动和人类评估，涉及将这些方法应用于预先训练的语言模型T5来产生重复。实验结果表明，我们的方法在两种评估中都超过了基线。

translated by 谷歌翻译

Conditional Deep Hierarchical Variational Autoencoder for Voice Conversion

Kei Akuzawa , Kotaro Onishi , Keisuke Takiguchi , Kohki Mametani , Koichiro Mori

分类：机器学习

2021-12-06

基于变化的AutoEncoder的语音转换（VAE-VC）具有仅需要对培训的发言和扬声器标签的优势。与VAE-VC中的大部分研究不同，专注于利用辅助损失或离散变量，研究了如何增加模型表达式对VAE-VC的益处和影响。具体而言，我们首先将VAE-VC分析到速率 - 失真的角度，并指出模型表达性对于VAE-VC来说意义重大，因为速率和失真反映了转化的演示的相似性和自然度。基于分析，我们提出了一种使用深层等级vae的新型VC方法，具有高模型表达性，并且由于其非自动增加的解码器而具有快速转换速度。此外，我们的分析揭示了另一个问题，当VAE的潜变量具有冗余信息时，相似性可以降级。通过使用$ \ beta $ -vae目标控制潜在变量中包含的信息来解决问题。在使用VCTK Corpus的实验中，所提出的方法在性别间环境中的自然和相似性上实现了高于3.5的平均意见分数，其高于现有的基于AutoEncoder的VC方法的分数。

translated by 谷歌翻译